Origen de MS_AnalizeR
MS_AnalizeR es una aplicación desarrollada por el Dr. Martín Ledesma (CONICET) en respuesta a la necesidad de la Dra. Mariángeles Díaz (IDEHU-CONICET) de analizar datos de experimentos de proteómica “label free” obtenidos en el IQUIBICEM-CONICET-UBA (Dra. Pía Valacco). La Dra. Díaz estaba interesada en la identificación de proteínas diferenciales entre extractos proteícos totales de células tumorales (leucemias agudas) control y tratadas con 4 metilumbeliferona (4-MU). Este conocimiento resultaría en el entendimiento del mecanismo de acción de este fármaco [1].
¿Qué es MS_AnalizeR?
Aplicación web libre escrita en el lenguaje R [2], mediante el paquete shiny [3]. La app acepta como input el archivo excel obtenido con el software ProteomeDiscoverer (Thermo Scientific). Luego permite la selección de las columnas en las que se encuentran los valores de abundancia de cada grupo/replicado (solo acepta triplicados de dos grupos). Una vez que se seleccionan las columnas, la app va progresando en el análisis estadístico del t-test y potencia del t-test. Estos se ejecutan mediante la interacción del usuario con íconos que activan dicha ejecución. La app devuelve varios outputs, por un lado una serie de tablas adquiribles en formatos excel y pdf con las resultados de las pruebas estadísticas para todos los accesos y para los accesos significativos. Por otro lado, ofrece 2 tipos de visualizaciones interactivas desarrolladas con plotly [4]: box-plot y volcano plot 3D.
El software ProteomeDiscoverer realiza un procesamiento de la información obtenida por el espectrómetro de masa QExactive (Thermo Scientific). El usuario debe seleccionar la base de datos (Uniprot contra Homo sapiens -Human- UP000005640) y ciertas características que se vinculan con la forma en que fue tratada la muestra (Especificidad de tripsina y un máximo de escisiones perdidas por péptido. Tipo de modificación de carbamidometilación de residuos de cisteína y de oxidación de metionina). El programa desarrolla un informe excel con las proteínas identificadas y los péptidos que utilizó para realizarla. A su vez, el programa asigna un nivel de confianza (High). El informe incluye como variable destacada al área representadas por cada proteína, denominada abundancia. Esta variable permite conocer en términos cuantitativos la preponderancia de cada proteína en las distintas muestras. Es la principal variable sobre la cual se puede realizar inferencia estadística para conocer, por ejemplo, si existen diferencias significativas de presencia entre dos o más grupos de muestras.
El procesamiento de los resultados obtenidos con el software ProteomeDiscoverer son normalmente ejecutados con el software Perseus (Max Planck Institute of Biochemistry). Este es un software que permite realizar un trabajo estadístico profundo sobre los datos obtenidos con Proteome Discoverer. A pesar de ser el software de elección por su simplicidad analítica y gratuidad, tiene ciertas limitaciones como que sólo es ejecutable en ambientes Windows. Exite otro software para realizar este tipo de análisis, se llama Patternlab y fue desarrollado por el Instituto Fiocruz, también presenta la misma limitación que el anterior.
Procedimiento analítico
Se generan N (n1+n2) bases de accesos, n1 para el control y n2 para el tratado. Las filas que contienen valores NA (sin datos) en el valor de Abundancia (área) y/o Score se reemplazan por las medias de las respectivas variables. Posteriormente se calcula el logaritmo natural del valor de abundancia. Las n1 bases del control y n2 del tratado se unen obteniéndose una base de datos unificada y apilada. Se realiza una agrupación en función de los números de accesos, de modo que para cada número de acceso se tienen N valores de ln.abundancia. Se computa la prueba t de Student (The R Stats Package, Version: 3.6.1) sobre los valores del ln.Abundancia de cada uno de los accesos. Se calculan los promedios de ln.Abundancia, Score y PSM para cada acceso y condición, así como también el desvió estándar (SD) de dicha variable para cada acceso y condición. Se computan las diferencias en los valores medios de ln.Abundancia entre control y tratado y se asigna una variable nueva llamada Dif.Abundance. También se calcula el valor de SDpool como la raíz cuadrada de la suma de las SD del control y tratado al cuadrado divididas por 2. Con las variables Dif.Abundance y SDpool se calcula la potencia de la prueba t de Student (The R Stats Package, Version: 3.6.1). Se llega a una base de datos que contiene en las filas los distintos números de accesos y en las columnas las variables: promedio de log.Abundancia en control, promedio de log.Abundancia en tratado, Dif.Abundance, SDpool, p-valor t.test, potencia.t.test, promedio Score y promedio PSM. Se aplicaron los filtros sobre el t.test tal que fueran menores a 0.05 y sobre la potencia para que fuera mayor a 0.8, los accesos resultantes se consideraron significativos. A su vez se identifican accesos con valores de t.test menores a 0.05 pero potencia entre 0.4-0.8, como accesos candidatos.
Visualizaciones MS_AnalizeR
Box-plot de los valores de ln.abundancia entre cada condición para cada acceso que resultó significativo. Hay dos versiones: 1) Box-plot_1: se gráfican todos los box-plot entre las condiciones de los distintos accesos significativos en un mismo gráfico. 2) Box-plot_2: se gráfican los box-plot individuales de cada acceso entre las condiciones y se puede seleccionar el acceso de interés.
Volcano_3D. Gráfico 3D entre las variables ln p-valor t.test, ln (0.8/potencia t.test) y diferencia entre valores promedio de ln.abundancia entre las condiciones (Control-Tratado) divido el Sd pooled. El tamaño de los puntos esta relacionado con la cantidad de XPMS.
Perspectivas de MS_AnalizeR
El desarrollo es lo suficientemente flexible como para admitir otros tipos de test, por ejemplo, en caso de que haya 3 grupos se podría reemplazar por un ANOVA.
Bibliografía
[1] Tesis doctoral Dra. Mariángeles Díaz. Título: Estudio de los mecanismo de acción de 4 metilumbeliferona como potencial agente anti-tumoral en leucemias agudas. 2020).
[2] R Core Team (2020). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL https://www.R-project.org/.
[3] Winston Chang, Joe Cheng, JJ Allaire, Yihui Xie and Jonathan McPherson (2020). shiny: Web Application Framework for R. R package version 1.4.0.2. https://CRAN.R-project.org/package=shiny
[4] C. Sievert. Interactive Web-Based Data Visualization with R, plotly, and shiny. Chapman and Hall/CRC Florida, 2020.